3. Eksik Görev Sorunu ve Karşılaştırma Tuzakları

3.1 Sorunun Tanımı

MTEB leaderboard'undaki en kritik teknik sorunlardan biri, modellerin farklı görev alt kümelerinde değerlendirilmiş olmasıdır. Bu durum birkaç nedenden kaynaklanır: model geliştiricilerin tüm görevleri koşmamış olması, v1'den v2'ye geçişte bazı görevlerin değişmesi ve yeni eklenen görevlerin eski modeller için koşulmamış olması.

3.2 Güncel Tablodaki Durum

Güncel MMTEB leaderboard'unda bu sorunun boyutu somut olarak görülebilir. Leaderboard'da toplam 399 model listelenirken, 9 görev türünün tamamında skoru olan model sayısı bunun çok küçük bir kısmıdır. Tablonun alt sıralarına doğru modellerin büyük çoğunluğunda görev türü sütunları tamamen boştur; bazı modeller yalnızca tek bir görev türünde (örneğin sadece Instruction Reranking veya sadece STS) skorlanmış durumdadır.

Somut örnekler:

Bu modeller pratikte güçlü adaylar olabilmelerine rağmen, eksik görevler nedeniyle Borda sıralamasında gerçek potansiyellerinin altında konumlanmaktadır.

3.3 Ortalamalara Etkisi

Bir model 131 görevin tamamında değerlendirilmişken, bir diğeri yalnızca en iyi performans gösterdiği 30 görevde değerlendirilmişse, ikinci modelin ortalaması yapay olarak yüksek çıkabilir. Bu "cherry-picking" kasıtlı olmasa bile, ortalamaların doğrudan karşılaştırılmasını yanıltıcı kılar.

3.4 Zero-Shot Oranı Göstergesi

Leaderboard'daki "Zero-shot" sütunu, bu bağlamda önemli bir gösterge sunar. Bu sütun, modelin değerlendirildiği görevlerin yüzde kaçında eğitim verisinin modele daha önce gösterilmemiş olduğunu ifade eder. Değer ne kadar yüksekse, model o kadar "görülmemiş" görevler üzerinde test edilmiş demektir.

Tabloda bu oran %78 ile %100 arasında değişirken, bazı modeller "⚠️ NA" olarak işaretlenmiştir; bu, zero-shot bilgisinin doğrulanamadığı anlamına gelir.

3.5 Pratik Çözüm Önerisi

Leaderboard'da iki modeli karşılaştırırken, her ikisinin de değerlendirildiği ortak görev alt kümesi üzerinden karşılaştırma yapılmalıdır. Leaderboard'un filtreleme araçları bu amaçla kullanılabilir. Model sayısı daraltıldıktan sonra, ortak görev kümesindeki performans daha güvenilir bir karşılaştırma sunar.